深度神经网络极大地促进了单图超分辨率(SISR)的性能。传统方法仍然仅基于图像模态的输入来恢复单个高分辨率(HR)解决方案。但是,图像级信息不足以预测大型展望因素面临的足够细节和光真逼真的视觉质量(x8,x16)。在本文中,我们提出了一种新的视角,将SISR视为语义图像详细信息增强问题,以产生忠于地面真理的语义合理的HR图像。为了提高重建图像的语义精度和视觉质量,我们通过提出文本指导的超分辨率(TGSR)框架来探索SISR中的多模式融合学习,该框架可以从文本和图像模态中有效地利用信息。与现有方法不同,提出的TGSR可以生成通过粗到精细过程匹配文本描述的HR图像详细信息。广泛的实验和消融研究证明了TGSR的效果,该效果利用文本参考来恢复逼真的图像。
translated by 谷歌翻译
近年来,异构图形神经网络(HGNNS)一直在开花,但每个工作所使用的独特数据处理和评估设置会让他们的进步完全了解。在这项工作中,我们通过使用其官方代码,数据集,设置和超参数来展示12个最近的HGNN的系统再现,揭示了关于HGNN的进展的令人惊讶的结果。我们发现,由于设置不当,简单的均匀GNN,例如GCN和GAT在很大程度上低估了。具有适当输入的GAT通常可以匹配或优于各种场景的所有现有HGNN。为了促进稳健和可重复的HGNN研究,我们构建异构图形基准(HGB),由具有三个任务的11个不同数据集组成。 HGB标准化异构图数据分割,特征处理和性能评估的过程。最后,我们介绍了一个简单但非常强大的基线简单 - HGN - 这显着优于HGB上以前的所有模型 - 以加速未来HGNN的进步。
translated by 谷歌翻译
长尾学习旨在应对在现实情况下严重的阶级失衡下统治训练程序的关键挑战。但是,很少有人注意如何量化表示空间中头等的优势严重性。在此激励的情况下,我们将基于余弦的分类器推广到von mises-fisher(VMF)混合模型,该模型被称为VMF分类器,该模型可以通过计算分布重叠系数来定量地测量超晶体空间上的表示质量。据我们所知,这是从分布重叠系数的角度来衡量分类器和特征的表示质量的第一项工作。最重要的是,我们制定了类间差异和类功能的一致性损失项,以减轻分类器的重量之间的干扰,并与分类器的权重相结合。此外,一种新型的训练后校准算法设计为零成本通过类间重叠系数来提高性能。我们的方法的表现优于先前的工作,并具有很大的利润,并在长尾图像分类,语义细分和实例分段任务上实现了最先进的性能(例如,我们在Imagenet-50中实现了55.0 \%的总体准确性LT)。我们的代码可在https://github.com/vipailab/vmf \_op上找到。
translated by 谷歌翻译
我们提出了一种基于信息的足够表示学习(MSRL)方法,该方法使用了相互信息的变异表述,并利用了深神经网络的近似能力。 MSRL以最大的互明信息和用户选择的分布来学习足够的表示形式。它可以轻松处理多维连续或分类响应变量。在给定预测变量给定预测变量给定的响应变量的条件概率密度函数的情况下,响应变量的条件概率密度函数的意义上,MSRL被证明是一致的。在适当的条件下,也建立了MSRL的非反应误差界。为了建立误差范围,我们得出了普遍的达德利对订单的不平等,这是由深度神经网络索引的u-process索引,这可能具有独立的关注。我们讨论如何确定基础数据分布的内在维度。此外,我们通过广泛的数值实验和实际数据分析评估了MSRL的性能,并证明MSRL优于某些现有的非线性降低方法。
translated by 谷歌翻译
The ability of snapshot compressive imaging (SCI) systems to efficiently capture high-dimensional (HD) data has led to an inverse problem, which consists of recovering the HD signal from the compressed and noisy measurement. While reconstruction algorithms grow fast to solve it with the recent advances of deep learning, the fundamental issue of accurate and stable recovery remains. To this end, we propose deep equilibrium models (DEQ) for video SCI, fusing data-driven regularization and stable convergence in a theoretically sound manner. Each equilibrium model implicitly learns a nonexpansive operator and analytically computes the fixed point, thus enabling unlimited iterative steps and infinite network depth with only a constant memory requirement in training and testing. Specifically, we demonstrate how DEQ can be applied to two existing models for video SCI reconstruction: recurrent neural networks (RNN) and Plug-and-Play (PnP) algorithms. On a variety of datasets and real data, both quantitative and qualitative evaluations of our results demonstrate the effectiveness and stability of our proposed method. The code and models are available at: https://github.com/IndigoPurple/DEQSCI .
translated by 谷歌翻译
许多3D表示(例如,点云)是下面连续3D表面的离散样本。该过程不可避免地介绍了底层的3D形状上的采样变化。在学习3D表示中,应忽略应忽略变化,而应捕获基础3D形状的可转换知识。这成为现有代表学习范式的大挑战。本文在点云上自动编码。标准自动编码范例强制编码器捕获这种采样变体,因为解码器必须重建具有采样变化的原始点云。我们介绍了隐式AutoEncoder(IAE),这是一种简单而有效的方法,通过用隐式解码器替换点云解码器来解决这一挑战。隐式解码器输出与相同模型的不同点云采样之间共享的连续表示。在隐式表示下重建可以优先考虑编码器丢弃采样变体,引入更多空间以学习有用的功能。在一个简单的线性AutoEncoder下,理论上理论地证明这一索赔。此外,隐式解码器提供丰富的空间来为不同的任务设计合适的隐式表示。我们展示了IAE对3D对象和3D场景的各种自我监督学习任务的有用性。实验结果表明,IAE在每项任务中始终如一地优于最先进的。
translated by 谷歌翻译
在打击气候变化时,用于加热或冷却的地区能量系统(DES)的有效需求的能源供应运行是必不可少的。因此,消费者侧的热量消耗预测朝向最佳能源供应构成了重要的第一步。然而,由于散热数据的非线性和非公平性,所以对DES的热能需求的预测仍然具有挑战性。在这项工作中,我们向基于内核支持向量回归(KSVR)的地区供热系统(DHS)内提出了一种预测的热能消耗框架,使用现实世界智能仪表数据。粒子群优化(PSO)用于找到KSVR模型的最佳超参数,这导致与最先进的Arima模型相比的所提出的方法的优越性。对于个人仪表特异性预测和对社会消费预测,平均MAPE分别降至2.07%和2.64%。
translated by 谷歌翻译
开发深度神经网络以生成3D场景是神经综合的基本问题,其立即应用于架构CAD,计算机图形,以及生成虚拟机器人训练环境。这项任务是具有挑战性的,因为3D场景呈现不同的模式,从连续的模式等等,例如对象尺寸和成对对之间的相对姿势,以离散模式,例如具有对称关系的对象的发生和共发生。本文介绍了一种新型神经场景综合方法,可以捕获3D场景的不同特征模式。我们的方法结合了神经网络和传统场景合成方法的强度。我们使用从训练数据中学到的参数上的分布,这提供了对象属性和相对属性的不确定性,以规范前馈神经模型的输出。此外,我们的方法不仅仅是预测场景布局,而不是预测场景布局。该方法允许我们利用预测属性之间的底层一致性约束来修剪不可行的预测。实验结果表明,我们的方法显着优于现有方法。生成的3D场景在保留连续和离散特征模式的同时忠实地插入训练数据。
translated by 谷歌翻译
Deep learning models can achieve high accuracy when trained on large amounts of labeled data. However, real-world scenarios often involve several challenges: Training data may become available in installments, may originate from multiple different domains, and may not contain labels for training. Certain settings, for instance medical applications, often involve further restrictions that prohibit retention of previously seen data due to privacy regulations. In this work, to address such challenges, we study unsupervised segmentation in continual learning scenarios that involve domain shift. To that end, we introduce GarDA (Generative Appearance Replay for continual Domain Adaptation), a generative-replay based approach that can adapt a segmentation model sequentially to new domains with unlabeled data. In contrast to single-step unsupervised domain adaptation (UDA), continual adaptation to a sequence of domains enables leveraging and consolidation of information from multiple domains. Unlike previous approaches in incremental UDA, our method does not require access to previously seen data, making it applicable in many practical scenarios. We evaluate GarDA on two datasets with different organs and modalities, where it substantially outperforms existing techniques.
translated by 谷歌翻译
The development of social media user stance detection and bot detection methods rely heavily on large-scale and high-quality benchmarks. However, in addition to low annotation quality, existing benchmarks generally have incomplete user relationships, suppressing graph-based account detection research. To address these issues, we propose a Multi-Relational Graph-Based Twitter Account Detection Benchmark (MGTAB), the first standardized graph-based benchmark for account detection. To our knowledge, MGTAB was built based on the largest original data in the field, with over 1.55 million users and 130 million tweets. MGTAB contains 10,199 expert-annotated users and 7 types of relationships, ensuring high-quality annotation and diversified relations. In MGTAB, we extracted the 20 user property features with the greatest information gain and user tweet features as the user features. In addition, we performed a thorough evaluation of MGTAB and other public datasets. Our experiments found that graph-based approaches are generally more effective than feature-based approaches and perform better when introducing multiple relations. By analyzing experiment results, we identify effective approaches for account detection and provide potential future research directions in this field. Our benchmark and standardized evaluation procedures are freely available at: https://github.com/GraphDetec/MGTAB.
translated by 谷歌翻译